基於增強式深層類神經網路之語言辨認系統(Reinforcement Training for Deep Neural Networks-based Language Recognition)[In Chinese]

نویسندگان

Yen-Wen Hsiao

Hung-Jui Liu

Yuan-Fu Liao

چکیده

本論文之目標要建立一個基於增強式學習之語言辨認系統,並參與 NIST LRE2015 評比。語言辨認常受到其他相似的語系(out of set, OOS)使效能下降。為了能解決目標語言與 OOS 極為相似與常用的訓練準則與實際應用情境偏離的情況,因此本論文提出新的考慮 OOS 的 DNN 架構並使用 reinforcement learning (RL) 來做訓練,系統特色在於先把 OOS 做細分,包括建立一個可同時辨認目標語言與所有 OOS 的 DNN 架構;以及將整個任務分解成兩個輸出相乘的 DNNs,一個負責語言分群,一個負責區分目標與非目標語言。所提出的系統皆以 LRE2015 規定的代價函數(越低越好)進行實驗比較,根據 LRE2015 評分結果,官方給定的 LDA 語言辨識系統,其分數為 39.033,使用傳統 DNN 其分數為 30.136,而使用本論文所提出兩種新 DNN+reinforcement 其分數分別為 20.899 The 2016 Conference on Computational Linguistics and Speech Processing ROCLING 2016, pp. 325-341  The Association for Computational Linguistics and Chinese Language Processing

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

基於深層遞迴類神經網路之多通道電視回聲消除系統(Multi-Channel Television Echo Cancellation based on Deep Recurrent Neural Networks)[In Chinese]

本論文研究智慧型電視操作情境下之電視節目回聲消除,希望能在電視節目持續播放的情形下,仍能錄到說話者的清晰語音,並能應用在即時語音通訊與遠距語音辨認人機介面上。本論文的回聲消除系統演算法是以遞迴類神經網路(Recurrent Neural Network,RNN)演算法,再配上多通道麥克風做回聲消除,達到人聲增強, 抑制噪音雜訊,提高語音清晰度。實驗分別實作單純電視節目聲、人聲混電視節目聲兩種實驗,再導入前五秒無人聲預訓練,後五秒有人聲之電視節目回聲消除模式實驗,實驗結果以回聲衰減量來判斷效能優劣。實驗顯示,以多通道深層遞迴類神經網路效能優於其他方法,透過多聲道 RNN處理,的確能有效地濾除雜訊。關鍵詞: 聲學回聲消除、適應性濾波器、類神經網路、遞迴類神經網路 The 2016 Conference on Computational Linguistics and Spee...

متن کامل

遞迴式類神經網路語言模型應用額外資訊於語音辨識之研究 (Recurrent Neural Network-based Language Modeling with Extra Information Cues for Speech Recognition) [In Chinese]

متن کامل

基於深層類神經網路之音訊事件偵測系統(Deep Neural Networks for Audio Event Detection)[In Chinese]

現實生活中常有許多聲音事件會一起發生,而聲音會重疊在一起,使得傳統(Gaussian Mixture Model ,GMM)方法很難準確辨認這些重疊的聲音事件。因此,本文提出以深層類神經網絡(Deep Neural Network, DNN)來檢測這些互相干擾的聲音事件,並據此參加 Detection and Classification of Acoustic Scenes and Events 2016 (DCASE2016) 比賽, DCASE2016 評比提供的音訊資料,內有兩種場景,包括居家與戶外,共有 18 種含有背景的聲音事件。實驗結果顯示使用 DNN 與傳統 GMM 比較,其場景偵測錯誤率可從 0.91 降至 0.86、F1 分數並從 23.4%提升到 26.8%。此外針對室內環境的音訊事件偵測,錯誤率可從 1.06 降至 0.86,F1 分數並從 8.9%提升...

متن کامل

完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]

A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系統包含四個子網路,分...

متن کامل

透過語音特徵建構基於堆疊稀疏自編碼器演算法之婚姻治療中夫妻互動行為量表自動化評分系統(Automating Behavior Coding for Distressed Couples Interactions Based on Stacked Sparse Autoencoder Framework using Speech-acoustic Features)[In Chinese]

人與人之間交談互動,常透過語言傳達彼此的想法,並在這交談過程中得知雙方的行為反應。利用人為觀察來分析雙方行為反應,這種人為分析方式最早常應用在心理學和精神醫學方面 [2]。人為行為觀察已經相當的成功用於研究親密關係 [3][4],因為夫妻的互動行為是影響親密關係程度的重要因素之一。然而使用人為觀察行為的方式長年存在根本問題,一方面太消耗時間,另一面也主觀。如果能透過電腦工程的方式來幫忙人為觀察將大大提升效率:即透過低層描述映射高層描述來預測與分析人類行為 [5]。這項研究領域是一個新興的領域分。人類行為信號處理 (Behavioral Signal Processing, BSP)目的在幫助連接信號處理技術與行為分析的跨領域學科,建立在傳統的信號處理研究,如語音識別,面手部追蹤等等。相關顯著 BSP 研究已發產於以人為中心的提取音頻, 視頻信號,來分析高階人類行為...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2016

基於增強式深層類神經網路之語言辨認系統(Reinforcement Training for Deep Neural Networks-based Language Recognition)[In Chinese]

نویسندگان

چکیده

منابع مشابه

基於深層遞迴類神經網路之多通道電視回聲消除系統(Multi-Channel Television Echo Cancellation based on Deep Recurrent Neural Networks)[In Chinese]

遞迴式類神經網路語言模型應用額外資訊於語音辨識之研究 (Recurrent Neural Network-based Language Modeling with Extra Information Cues for Speech Recognition) [In Chinese]

基於深層類神經網路之音訊事件偵測系統(Deep Neural Networks for Audio Event Detection)[In Chinese]

完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]

透過語音特徵建構基於堆疊稀疏自編碼器演算法之婚姻治療中夫妻互動行為量表自動化評分系統(Automating Behavior Coding for Distressed Couples Interactions Based on Stacked Sparse Autoencoder Framework using Speech-acoustic Features)[In Chinese]

عنوان ژورنال:

اشتراک گذاری